جذب ۱۰.۵ میلیون دلار سرمایه برای توسعه فناوری آواتار دیجیتال توسط Lemon Slice

توسعهدهندگان و شرکتها به طور فزایندهای در حال پیادهسازی عاملها و چتباتهای هوش مصنوعی در برنامههای خود هستند، اما تاکنون این فناوریها عمدتاً به متن محدود بودهاند. شرکت Lemon Slice که در زمینه تولید آواتار دیجیتال فعالیت میکند، در حال کار بر روی افزودن لایه ویدیویی به این گفتگوها با استفاده از مدل دیفیوژن جدیدی است که میتواند تنها با یک تصویر، آواتارهای دیجیتال تولید کند.
این مدل که Lemon Slice-2 نام دارد، قادر است یک آواتار دیجیتال بسازد که بر مبنای پایگاه دانش فعال میشود و میتواند هر نقشی را که از عامل هوش مصنوعی انتظار میرود ایفا کند؛ اعم از پاسخ به پرسشهای مشتریان، کمک به سوالات درسی، یا حتی ایفای نقش پشتیبان سلامت روان.
لینا کولوچی، یکی از بنیانگذاران، میگوید: «در اوایل دوران هوش مصنوعی مولد، همبنیانگذاران من شروع به آزمایش مدلهای مختلف ویدیویی کردند و خیلی زود برای ما مشخص شد که ویدیو تعاملی خواهد بود. نکته جذاب درباره ابزارهایی مانند ChatGPT این است که تعاملی هستند و ما میخواهیم ویدیو نیز از چنین ویژگی برخوردار باشد.»
به گفته Lemon Slice، این یک مدل ۲۰ میلیارد پارامتری است که میتواند با یک GPU روی ویدیوها به صورت زنده و با نرخ ۲۰ فریم بر ثانیه کار کند. این شرکت مدل خود را از طریق یک API و ابزارک قابل درج ارائه میدهد که شرکتها با یک خط کد میتوانند آن را به سایت خود اضافه کنند. پس از ایجاد آواتار، در هر لحظه میتوان پسزمینه، استایل و ظاهر شخصیت را تغییر داد.
علاوه بر آواتارهای انساننما، این شرکت روی تولید شخصیتهای غیرانسانی متناسب با نیازهای مختلف هم تمرکز کرده است. Lemon Slice برای تولید صدای این آواتارها از فناوری شرکت ElevenLabs استفاده میکند.
شرکت Lemon Slice که توسط لینا کولوچی، سیدنی پریماس و اندرو وایتز در سال ۱۴۰۳ تأسیس شد، اطمینان دارد که بهرهگیری از مدل دیفیوژن عمومی خود (نوعی مدل مولد که با یادگیری به صورت معکوس از دادههای آموزشی نویزی، دادههای جدید میسازد) برای تولید آواتارها، آن را از رقبا متمایز خواهد کرد.
کولوچی میگوید: «راهکارهای فعلی آواتار که تا امروز دیدهام، نهتنها ارزش افزودهای ندارند، بلکه اثر منفی هم دارند. آنها ترسناک، غیرطبیعی و خشک هستند؛ شاید در چند ثانیه اول خوب به نظر برسند اما به محض تعامل حس عجیبی القا میکنند و باعث راحتی نمیشوند. آنچه مانع موفقیت واقعی آواتارها شده، این است که به اندازه کافی خوب نیستند.»
برای تحقق این هدف، این شرکت در روز سهشنبه ۴ دی ۱۴۰۳ اعلام کرد موفق شده است ۱۰.۵ میلیون دلار سرمایه اولیه از Matrix Partners، Y Combinator، آرش فردوسی (مدیر فناوری Dropbox)، امت شیر (مدیرعامل Twitch) و The Chainsmokers جذب کند.
این شرکت اعلام کرده که برای جلوگیری از شبیهسازی غیرمجاز چهره یا صدا، راهکارهای حفاظتی مشخصی در نظر گرفته و از مدلهای زبانی بزرگ برای مدیریت و نظارت بر محتوا بهره میگیرد.
Lemon Slice نام سازمانهایی که از فناوری آن استفاده میکنند را فاش نکرد، اما گفت این مدل در کاربردهایی مانند آموزش، یادگیری زبان، تجارت الکترونیک و آموزش سازمانی مورد استفاده قرار میگیرد.
این استارتاپ با رقبایی جدی از جمله شرکتهای تولیدکننده ویدیو مانند D-ID، HeyGen و Sythesia و نیز سازندگان آواتار دیجیتال از جمله Genies، Soul Machine، Praktika و AvatarOS روبهرو است.
ایلیا سوخار، شریک Matrix، معتقد است آواتارها در حوزههایی که ویدیو نقش پررنگی دارد، مفید خواهند بود. او اشاره میکند که بسیاری ترجیح میدهند از ویدیوهای آموزشی بهره ببرند تا خواندن متنهای طولانی و میگوید توانایی فنی Lemon Slice و مدل اختصاصیاش، این شرکت را از سایر استارتاپها متمایز میکند.
او میگوید: «این یک تیم عمیقاً فنی با سابقه عرضه محصولات یادگیری ماشین است، نه صرفاً ارائه دمو یا پژوهش. بیشتر رقبای فعلی خود را به سناریوها یا حوزههای خاص محدود کردهاند اما Lemon Slice رویکرد مقیاسپذیر و کلی مبتنی بر داده و پردازش را اتخاذ کرده است؛ رویکردی که در سایر حوزههای هوش مصنوعی موفق بوده است.»
جرد فریدمن از Y-Combinator معتقد است استفاده از مدل دیفیوژنی به Lemon Slice اجازه میدهد هر نوع آواتاری تولید کند، برخلاف برخی استارتاپها که فقط آواتارهای انساننما یا شخصیتهای بازی میسازند.
او بیان میکند: «به باور من، Lemon Slice تنها شرکتی است که رویکرد یادگیری ماشین بنیادی را در پیش گرفته که میتواند نهایتا بر مشکل “دره وهمآور” غلبه کند و تست تورینگ آواتارها را پشت سر بگذارد. آنها از همان نوع مدلی استفاده میکنند که Veo3 یا Sora استفاده میکنند؛ یک ترنسفورمر دیفیوژن ویدیویی. چون این مدل عمومی و انتها به انتها است، هیچ محدودیتی در بهبود آن وجود ندارد؛ دیگران تا رسیدن به واقعگرایی کامل پیش نمیروند. همچنین هم برای چهرههای انسانی و هم غیرانسانی جوابگو است و فقط به یک تصویر برای افزودن چهره جدید نیاز دارد.»
این استارتاپ در حال حاضر هشت کارمند دارد و برنامه دارد از منابع جدید برای جذب نیروهای مهندسی و فروش، همچنین پرداخت هزینههای پردازش داده جهت آموزش مدلهایش استفاده کند.



